
68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩
68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩大模型竞技场的可信度,再次被锤。
来自主题: AI技术研报
6695 点击 2025-05-02 17:56
大模型竞技场的可信度,再次被锤。
作为学术研究项目,原加州大学伯克利分校的Chatbot Arena,其网站已成为访客试用新人工智能模型的热门平台,现正转型为独立公司。
就在国内各家大模型厂商趁年底疯狂卷的时候,太平洋的另一端也没闲着。 就在今天,谷歌发布了 Gemini 2.0 Flash Thinking 推理模型的加强版,并再次登顶 Chatbot Arena 排行榜。
用来运行 Llama 3 405B 优势明显。
基于评测维度,考虑到各评测集关注的评测维度,可以将其划分为通用评测基准和具体评测基准。